AI产业链地图·知识库 Constitutional AI · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/Constitutional AI
更新 2026·06·17
概念 技术 / 术语

Constitutional AI

CAI · 宪法AI · Constitutional Approach

Constitutional AI 是 Anthropic 在 2022 年论文 *Constitutional AI: Harmlessness from AI Feedback* 中提出的训练方法。核心思想:用一套书面"宪法原则"(如"不应有害"、"应当诚实"、"不应歧视"),让 AI 自我批评、自我修订输出,从而无需大量人工偏好标注就能实现安全对齐。

Constitutional AI CONCEPT · 概念
首次提出
2022
关键参与方
[[Anthropic]]
反向引用
10 处 · 来自 6
归属 对齐AI安全LLM训练第四层

Constitutional AI(宪法 AI)

Anthropic 2022 年提出的 LLM 对齐方法,用一套原则("宪法")替代纯 RLHF 的偏好标注,规模化可扩展的对齐范式。

定义

Constitutional AI 是 Anthropic 在 2022 年论文 Constitutional AI: Harmlessness from AI Feedback 中提出的训练方法。核心思想:用一套书面"宪法原则"(如"不应有害"、"应当诚实"、"不应歧视"),让 AI 自我批评、自我修订输出,从而无需大量人工偏好标注就能实现安全对齐。

技术细节

两阶段训练:

  1. 监督学习阶段(SL-CAI)

    • 模型生成回复 → 模型基于"宪法"自我批评 → 模型自我修订
    • 用修订后的回复做监督微调
  2. 强化学习阶段(RL-CAI / RLAIF)

    • 模型对比两个回复 → 基于"宪法"选哪个更符合原则
    • 训练奖励模型 → 用 PPO 强化学习

与传统 RLHF 相比,Constitutional AI 的关键差异是 AI Feedback 替代 Human Feedback——奖励信号来自 AI 自评而非人工标注。

主要玩家

  • Anthropic — 方法原创者,Claude 全系列模型基于此训练
  • 行业内多家模型厂效仿(修改版)

在 AI 产业链中的角色

Constitutional AI 是 4-03 子行业模型安全/对齐细分的核心方法论之一,与 RLHF / DPO 并列。它的最大价值在于解决了"人工标注成本与规模化对齐"的矛盾,让对齐过程可大规模并行化。

演进历史

  • 2022-12 Anthropic 论文 Constitutional AI 发布
  • 2023 Claude 2 系列模型基于此训练
  • 2024-2025 行业其他模型厂引入类似方法

相关概念

∈ belongs_to::4-03-模型生态与工具链